#DeepSeek MoE

張小珺 Xiaojùn

4个月前

这篇很前沿，也很hardcore——关于算法和架构创新。由于数据、算力、算法三驾马车，数据难度增大，中国算力相对有限，中国的算法走在了世界前沿。近几年架构最大突破是DeepSeek的MoE，它让MoE成了全球共识；而下一个突破的重要方向可能是Attention。中国公司已经在Attention展开了不同技术bet。本集我们从Kimi Linear、DeepSeek Sparse、Minimax M2、Qwen3-Next聊起，嘉宾分析点评了这些不同技术bet；也带领大家考古人工智能算法变种史，并预演未来算法与架构的改进方案（这里烧脑又精彩🤯）。本集是我们的往期嘉宾松琳（Sonta）的返场。松琳在MIT的研究方向是线性注意力，参与了Kimi Linear和Qwen3-Next的工作，是Kimi Linear论文的作者之一。

#算法 #架构创新 #DeepSeek MoE #attention #Kimi Linear